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摘要 : 随 着 生物 技术 的 不 断 发 展 和 系统 发 育 学 的 深入 研究 , 在 重 构 系统 发 育 树 时 , 研究 人 员 往 往 要 面 对 更 多 的 挑 
战 和 困难 ,比如 : (1) 需 要 分 析 的 样本 数 (物种 数 或 个 体 数 ) 不 断 增 加 ; (2) 需要 分 析 的 数据 量 迅速 扩大 。 尤 其 在 
基因 组 测序 技术 的 推动 下 , 基于 分 子 信息 的 系统 发 育 重建 需要 极 大 的 计算 量 , 因此 数学 方法 、 计 算 机 技术 以 及 其 
他 辅助 工具 对 于 系统 发 育 重建 的 效率 和 精确 度 起 着 至 关 重 要 的 作用 。 最 大 简约 法 (maximum parsimony) 是 一 种 重 
要 的 系统 发 育 重建 方法 , 提高 其 计算 效率 对 系统 发 育 学 研究 具有 重要 意义 , 针对 该 算法 的 优化 改进 需要 生物 学 家 
和 计算 机 专家 的 共同 努力 。 本 文通 过 详细 地 阐述 最 大 人 简约 法 的 计算 流程 , 分 析 其 参数 选择 对 计算 效率 的 影响 , 帮 
助 更 多 的 计算 机 使 用 者 , 在 并 不 了 解 系统 发 育 学 基础 的 情况 下 , 更 方便 地 针对 实际 的 系统 发 育 算法 问题 给 出 更 
好 、 更 快 、 更 精准 的 解决 方案 ; 同时 为 系统 发 育 研究 工作 者 ,较为 清晰 地 解释 最 大 简约 法 的 构 树 思想 和 计算 逻辑 ， 
推动 针对 最 大 简约 法 的 不 断 改进 与 优化 。 
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Abstract: With the continuous development of biotechnoglogy and progresses in phylogenetics, 
researchers now are facing more and more challenges and difficulties in reconstructing phylogenetic trees : 
1) species number (or individual number) of the specific taxon of research is always increasing; 2) the 
number of taxonomical characters ( for example molecular information) of each species ( or individual) is 
also enlarging. Especially with the efforts of genome-sequencing technology, phylogenetic reconstruction 
based on molecular information requires massive computation. Mathematical methods, computer 
technologies and other auxiliary means play key roles in enhancing the efficiency and accuracy of 
phylogenetic reconstruction. Maximum parsimony ( MP) is a very important method for phylogenetic 
reconstruction, and it needs efforts of both biologists and computer scientists to enhance its computational 
efficiency. In this article, we elaborated the calculation procedure of the MP method in details and 
analyzed the influences of parameter selection on computational efficiency, in order to help more 
computer researchers without detailed knowledge of phylogenetics to present better, quicker and more 
precise solutions to phylogenetic reconstruction in practice. In the meantime, we tried to explain the basic 
principles and computational logic of the MP method for phylogenetic researchers to push forward 


continuous improvement and optimization of using maximum parsimony in biology. 
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针对 系统 发 育 的 研究 由 来 已 久 , EXER TER 
德 时 期 ， 人 们 便 开始 对 物种 的 性 状 进行 描述 。 随 着 
研究 的 深入 , 生物 学 家 综合 前 人 的 理论 、 方 法 与 成 
R, 主要 基于 物种 的 基本 形态 性 状 , 同时 综合 考虑 
其 他 行为 、 生 理 、 生 态 和 遗传 等 生物 学 差异 ,进行 
全 面 的 系统 发 育 研 究 , 追溯 物种 的 起 源 历 史 ( 黄 大 
T, 1996) 。 然 而 在 分 子 技术 不 断 发 展 的 帮助 下 ， 
相 比 单纯 地 基于 物种 形态 信息 、 物 种 性 状 信息 进行 
系统 发 育 研 究 , 基于 物种 分 子 信息 进行 的 系统 发 育 
研究 如 今 更 受 推 入。 一 方面 ,分 子 信息 能 够 有 效 蔡 
代 物 种 的 形态 或 性 状 信息 , 另 一 方面 ,分 子 信息 可 
以 作为 物种 进化 的 更 为 本 质 的 内 容 来 全 面 地 描述 物 
A. BWA A, 通过 分 子 信息 进行 系统 发 育 
WI, 已 经 获得 了 绝 大 多 数 人 研究 人 员 的 认可 , 并 在 
短 短 的 几 十 年 间 ， 得 到 了 迅速 的 发 展 和 壮大 
( Suárez-Díaz and Anaya-Muiioz, 2008) 。 

在 基因 组 技术 的 推动 下 , 基于 基因 组 数据 的 系 
统 发 育 分 析 , 将 帮助 研究 人 员 获 得 更 为 精准 的 分 析 
结果 。 尽 管 研 究 表明 单纯 地 通过 增加 基因 数据 并 不 
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能 增强 结果 的 一 任性 ， 只 有 配合 复杂 的 分 析 人 研究 ， 
才能 发 挥 全 基因 组 的 功能 作用 (Philippe et al., 
2011) ,但 还 是 有 越 来 越 多 的 研究 者 开始 使 用 全 基 
组 数据 进行 系统 发 育 重建 ， 以 期 待 获得 更 为 全 面 
的 分 析 绪 采 。 在 处 理 庞大 的 基因 组 数据 时 , 人 研究 人 
员 不 仅 需要 不 断 提 高 计算 服务 天 的 便 件 配置 ,更 需 
要 迅速 解决 如 何 大 幅度 提高 现 有 计算 软件 的 分 析 歼 
率 这 一 难题 (Delsuc et al., 2005) 。 因 此 , 对 大 数据 
的 系统 发 育 重 建 软件 的 优化 与 改进 ， 就 显得 尤为 
重要 。 


1 分 子 系统 发 育 分 析 概 述 


1.1 分 子 系统 发 育 重 建 的 基本 步骤 和 内 容 

一 般 来 说 , 分 子 系统 发 育 分 析 的 主要 步 又 为 
(图 1): 生物 学 家 通过 采集 标本 ,提取 分 子 信息 
(如 : DNA FIS), 再 将 不 同 物种 的 分 子 序列 信息 
进行 多 序列 比 对 ,获得 可 以 统一 比较 的 分 子 信息 ， 
通过 计算 机 计算 , 输出 最 终 的 系统 发 育 树 。 


系统 发 育 重建 
(计算 机 计算 ) 
Phylogenetic 
teconstruction 
(computer calculation) 


评估 系统 发 育 树 
Assessment of 
phylogenetic trees 


图 1 系统 发 育 分 析 的 主要 步骤 
Fig. 1 Main steps of phylogenetic analysis 


作为 系统 发 育 研 究 的 基础 和 内 容 , 以 及 后 续 计 
算 的 输入 来 源 ,“ 分 子 水 平 上 的 生物 信息 获取 ”显得 
尤为 重要 。 一 般 来 说 , 分 子 信息 主要 由 DNA, RNA 
和 人 各 白 质 三 大 类 生物 分 子 信息 组 成 , 并 从 3 个 方面 
进行 信息 提取 : 分 子 序列 信息 、 分 子 空 间 结 构 信 
县 、 分 子 功能 性 状 信息 。 分 子 空 间 结 构 相 对 复杂 ， 
目前 还 没有 较为 统一 的 有效 的 研究 标准 (Lin and 
Gerstein, 2000) 。 分 子 功 能 性 状 往往 受到 外 界 环境 

影响 ,很 难 真 实地 反映 物种 的 进化 特性 。 绪 合 

子 二 级 结构 与 分 子 序 列 双重 信息 进行 比 对 与 重 构 系 
统 发 育 树 的 研究 还 在 实验 阶段 , 难度 较 大 ( Letsch et 
al., 2010)。 因 此 , 目前 较为 第 用 的 方法 是 从 物种 
(或 个 体 ) 获得 部 分 (或 全 部 ) 分 子 序列 信息 , 通过 
特定 的 研究 方法 和 手段 , 结合 现代 数理 统计 与 计算 


机 科学 技术 , 重 构 物 种 (或 个 体 ) 之 间 的 生物 系统 发 
AKA (Philippe et al., 2005; 张 树 波 和 赖 剑 焊 ， 
2010), 

通常 情况 下 ,“ 多 序列 比 对 ”与 “系统 发 育 重 
建 " 是 分 先后 依次 进行 的 。 然 而 由 于 二 者 的 计算 任 
务 都 相当 耗 时 , 且 计 算 内 容 有 重合 部 分 , 因此 目前 
也 有 人 研究 尝试 将 二 者 结合 ( Roshan et al., 2006), 共 
同 计算 ， 以 期 待 获得 更 高 的 计算 效率 ,降低 计算 成 
本 。 在 这 一 方面 , 最 大 简约 法 的 特性 尤为 突出 , W 
SE PAESE, 最 大 简约 法 能 够 帮助 “多 序列 比 对 ”和 
“系统 发 育 重 建 ” 共 同 进 行 (Liu et al. , 2009) , 

明确 了 所 研究 问题 的 输入 信息 后 ,就 需要 进 一 
步 选择 系统 发 育 重建 算法 。 一 般 来 说 , 基于 分 子 序 
列 信息 的 系统 发 育 重建 算法 主要 可 分 为 两 大 类 : 基 
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图 2 系统 发 育 树 重建 


Fig. 2 Reconstruction of phylogenetic tree 


于 距离 矩阵 的 系统 发 育 重 建 算法 (Fitch and 
Margoliash, 1967; Kidd and Sgaramella-Zonta, 1971) 
IAE T RDM B0] 2 D c ET ERIK FEAM 
Bath, 2006). 。 基 于 最 优 原 则 的 方法 主要 又 可 分 为 最 
大 简约 法 (Fitch，1971)、 最 大 似 然 法 (Felsenstein , 
1981) 以 及 贝 叶 斯 法 (Huelsenbeck and Ronquist, 
2001) ( Yang and Rannala, 1997)3 种 算法 。 
1.2. 分 子 系统 发 育 重 建 的 难点 与 优化 

在 一 个 含有 nn 个 物种 (或 个 体 ) 的 分 类 单元 中 ， 
存在 (2n -3)1! 种 可 能 的 有 根 树 拓扑 结构 ，(2n - 
5)!! 种 可 能 的 无 根 树 拓 扑 结 构 ( Roch, 2006) , 
此 计算 机 在 “ 树 空间 ”中 搜索 最 优 系 统 发 育 树 (如 : 
最 大 简约 树 ) 是 一 个 NP ( non-deterministic 
polynomial, 韭 确 定 多 项 式 ) WE [A] BA (Foulds and 
Graham, 1982) ,人 们 只 能 通过 一 些 近 似 假设 和 算 
法 优化 设计 , 获得 最 优 近 似 解 ， 作 为 最 终 输 出 的 系 
统 发 育 树 。 因 此 , 算法 上 的 改进 是 系统 发 育 重 建 效 
率 提升 的 关键 所 在 。 

以 最 大 简约 法 进行 系统 发 育 重建 为 例 , 计算 机 
算法 上 的 优化 问题 , 概括 来 说 , 主要 体现 在 “ 树 空 


间 ” 搜 索 和 “最 大 简约 值 ”计算 两 个 步骤 上 (图 3)。 
一 方面 , 在 系统 发 育 重建 问题 中 , 采用 穷 举 式 搜 索 
属于 NP 难 问题 (Day et al., 1986) ,需要 使 用 HA 
式 搜索 ”进行 近似 求解 ; 发 一 方面 , 基因 组 的 庞大 
数据 ,要求 “最 大 简约 值 ”的 计算 效率 不 断 提 高 ， 以 
适应 不 断 扩 充 的 输入 数据 。 


2 ”最 大 简约 法 概述 


最 大 简约 法 ( maximum parsimony ) 简称 为 MP 
法 , 最 早 源 于 形态 性 状 研究 ,现在 已 经 推广 到 分 子 
序列 的 进化 分 析 中 。 最 大 简约 法 认为 对 于 一 个 分 类 
群 来 说 , 所 有 可 能 的 系统 发 育 树 中 , 性 状 或 基因 变 
化 总 和 最 小 的 那 一 棵 系统 发 育 树 是 真正 接近 上 自然 变 
化 的 系统 发 育 拓扑 (Henning，1966 ) 。 换 名 话说 ， 
当 给 定 一 个 物种 类 群 之 后 , 每 个 个 体 的 性 状 或 分 子 
序列 便 已 知 , 研究 人 员 事 先 根 据 实际 生物 学 含义 规 
定 出 各 个 性 状 或 基因 相互 转化 和 突变 的 代价 大 小 ， 
从 而 针对 每 一 棵 可 能 的 系统 发 育 树 进行 分 析 , 计算 
其 总 共 的 转化 和 突变 的 代价 大 小 ,最终 选 择 代价 最 
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图 3 ”基于 最 大 简约 法 重 构 系 统 发 育 树 的 算法 优化 


Fig. 3 Algorithm optimization of phylogenetic reconstruction by Maximum Parsimony 


小 的 一 棵 树 为 这 个 物种 类 群 的 MP 树 ( 最 大 简约 树 ) 
(Felsenstein, 1983) , 

在 系统 发 育 重建 算法 中 , 最 大 简约 原则 有 着 重 
要 的 地 位 和 影响 力 , 它 最 早 由 Camin 等 人 提出 
( Camin and Sokal, 1965) ,随后 Hein 等 人 对 其 如 何 
重建 祖先 状态 (Hein，1990 ) 以 及 构建 系统 发 育 树 ， 
进行 了 深入 研究 与 推广 (Hein，1993 ) 。 一 般 来 说 ， 
系统 发 育 重 构 时 所 需要 的 历史 进化 信息 越 少 , 则 其 
所 得 结果 就 越发 真实 可 信 ( Sober, 1988) , 而 较 早 出 
现 的 最 大 简约 法 又 恰恰 是 一 种 不 需要 进化 模型 的 无 
噪声 统计 方法 (Sourdis and Nei, 1988) ; 且 在 佑 算 单 
倍 型 基因 迁移 的 研究 中 , 无 论 是 从 结果 的 精确 度 还 
是 在 算法 的 鲁 棒 性 上 , 最 大 简约 法 相对 于 最 大 似 然 
法 、 距 离 矩 阵 法 、 贝 叶 斯 法 都 略 胜 一 筹 ( Salzburger 
et al., 2011); 同时 , 在 其 他 系统 发 育 重 建 方 法 
(Brooks et al., 2007) 和 系统 发 育 网 络 人 研究 (Jin et 
al., 2006) 中 都 或 多 或 少 使 用 了 简约 原则 , 因此 最 大 
简约 法 有 着 深厚 的 、 广泛 的 系统 发 育 学 者 的 认同 。 


3 ”最 大 简约 法 的 计算 步骤 


3.1 获取 输入 信息 

最 大 简约 法 最 早 是 以 物种 的 形态 学 性 状 作为 分 
析 内 容 , 进行 比较 计算 (Hein, 1990) , 重建 物种 间 
的 系统 发 育 树 。 随 着 分 子 技术 的 不 断 发 展 ,如 今 最 
大 简约 法 主要 针对 DNA, RNA Ala A ot FETT 
分 析 人 研究 。 以 n 条 DNA, 每 条 DNA 中 包含 30 个 脱 


氧 核 车 酸 位 点 的 输入 信息 为 例 , m 个 物种 的 DNA 经 
过 序列 比 对 , 形成 了 含有 30 *n 个 位 点 信息 的 DNA 
"AREE", 作为 最 大 简约 法 计算 的 输入 信息 。 

在 实际 计算 中 , 最 大 简约 法 每 次 只 针对 n 个 物 
种 的 一 个 位 点 信息 进行 计算 。 如 图 4 Bros, 抽取 第 
1 个 位 点 信息 列 。 计 算 结 束 后 ,再 抽取 第 2 个 位 点 
信息 列 进行 计算 , 以 此 类 推 , 直到 最 后 一 个 位 点 完 
成 计算 。 






GATATAGCATTTCCTCGAATAAATAATTTA 
ATAAATAATTTGAGATTTTGATTATTACCT 
GATATGGCTTTCCCTCGTATAAATAATTTA 


ATATAGCATTTCCTCGAATAAATAATTTA 





图 4 最 大 简约 法 的 输入 信息 


Fig. 4 The input files for maximum parsimony 
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3.2 “ 树 空间 ”搜索 最 大 简约 树 

获得 输入 信息 后 , 针对 n 个 物种 的 每 一 列 位 点 
AE, EWEA "中 搜索 最 大 简约 值 最 小 的 系统 发 
育 树 。 由 于 在 “ 树 空 间 ” 搜 索 最 优 解 是 一 个 NP 难 问 
题 (Day，1987 ) ,对 于 物种 数 n 大 于 10 的 分 类 单 
元 ,一般 只 能 采用 启发 式 智能 搜索 ,获得 最 优 近 似 
解 作为 结果 。 

其 具体 做 法 是 : 首先 , 按照 “逐步 添加 算法 


( stepwise addition algorithm ) " ( Cavalli-Sforza and 


获得 “初始 树 ” 


Obtain the initial tree 


启发 式 搜索 


Heuristic search 


修正 “初始 树 ” 


Correct the nitial tree 





Edwards, 1967) 或 “ 星 状 分 解 算法 ( star 
decomposition algorithm)” 生 成 一 棵 系统 发 育 树 ( 称 
之 为 “初始 树 ”) ， 随 后 采用 ”邻居 互 换 法 ( nearest- 
neighbour interchange, NNI) ”或 “ 子 树 修剪 与 重 接 法 
(subtree pruning and regrafting, SPR) ”或 “ 树 对 切 与 
重 接 法 (tree bisection and reconnection ，TBR)” 对 其 
进行 反复 修正 ,直到 获得 该 位 点 信息 下 的 n 个 物种 
的 最 大 简约 树 (图 5)。 


逐步 添加 算法 


Stepwise addition 
algorithm 





Star decomposition 
algorithm 
邻居 互 换 法 
Nearest-neighbour 
interchange (NNI) 


子 树 修剪 与 重 接 法 
Subtree pruning and 
regrafting (SPR) 


树 对 切 与 重 接 法 
Tree bisection and 
reconnection (TBR) 


图 5 局 发 式 搜索 算法 


Fig. 5 Heuristic search algorithm 


3.3 RAMAH BAE) 的 评价 标准 与 计算 方法 

除了 在 庞大 的 “ 树 空间 ”搜索 最 优 解 这 一 难题 
外 ,“ 最 大 简约 值 ”的 计算 也 是 影响 算法 效率 的 关键 
所 在 。 通 过 计算 “最 大 简约 值 ”得 到 两 棵 树 之 间 优 
劣 比较 的 评判 标准 。 一 般 来 说 ,对 于 一 株 特 定 拓扑 
结构 的 系统 发 育 树 , 最 大 简约 值 的 计算 过 程 如 图 6 
所 示 。 通 过 对 特定 拓扑 结构 的 系统 发 育 树 的 祖先 情 
况 进 行 穷 举 式 的 反复 推断 , 计算 出 各 种 推断 可 能 的 
进化 “代价 ”, 选择 进化 “代价 ”最 小 的 推断 情 帝 ， 作 
为 该 棵 树 的 祖先 信息 , 同时 以 其 进化 “代价 ”作为 该 
棵 树 的 “最 大 简约 值 ”( 函数 值 )。 对 “ 树 空间 ”的 每 
一 棵 树 的 “函数 值 ” 进行 比较 , 其 中 “函数 值 ”最 小 
的 一 棵 树 作 为 该 位 点 信息 列 的 最 大 简约 树 (MP 树 ) 
(图 7)。 

然而 ,实际 操作 中 ,程序 并 不 是 对 每 一 个 祖先 
情况 进行 计算 , 也 并 非 要 计算 出 所 有 的 系统 发 育 树 
的 “最 大 简约 值 ”( 函数 值 )。 正 如 前 文 所 说 ,由 于 
“ 树 空间 ”的 解 的 个 数 , 随 春 物 种 数 n 的 增加 呈 指 数 


式 扩 增 ， 同 时 祖先 推 斯 的 选取 也 是 一 个 NP 难 问题 
( Bader et al., 2006) , 因此 ， 人 们 一 方面 在 祖先 推 
斯 中， 采用 动态 规划 算法 ( dynamic-programming 
algorithm ) ( Sankoff, 1975) 进行 树 长 计算 ( “最 大 简 
约 值 ”的 计算 ); 为 一 方面 , 采用 启发 式 搜索 ,对 
“ 树 空间 ”进行 搜索 扫描 ,以 最 快 的 方式 , 精准 地 获 
得 近似 的 最 大 简约 树 (Yang, 2006), 
3.4 全 序列 的 最 大 简约 树 

通过 上 述 步 又 , 可 以 获得 每 一 列 位 点 信息 的 最 
大 简约 树 ， 针 对 30 个 位 点 长 度 的 DNA Fr yl "* 5g 
阵 ”, 就 得 到 了 30 棵 基于 单位 点 信息 的 最 大 简约 
树 。 采 用 频率 法 、 树 长 比较 法 、 改 进 频率 法 等 方 
法 , 来 获得 最 终 的 最 大 简约 树 ( 全 局 MP 树 )。 
3.5 BREE 

容易 看 出 ， 上 述 过 程 获 得 的 最 大 简约 树 ，, 并 不 
具备 统计 学 意义 ; 同时 由 于 DNA 序列 过 于 复杂 , 本 
吴 采 用 近似 算法 得 到 的 结果 不 足以 让 研究 人 员 所 信 
服 , 因此 , 人 们 通过 重 采 样 过 程 , 对 上 述 过 程 获 得 
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分 子 序列 (输入 信息 ) 祖先 推断 -1 计算 
Molecular sequence Ancestors 






inferred-1 


(input information) 





祖先 推断 -2 
Ancestors 
inferred-2 










祖先 推断 -i 
Ancestors 
inferred-i 










任意 解 的 拓扑 结构 


The topology of any solution Calculate 








Calculate 


Calculate 


Calculate 






Calculate 


系统 发 育 树 的 解 空间 


Solution space of phylogenetic trees 


进化 “代价 ”-1 
The cost of 
evolution-1 













进化 “代价 ”-2 
The cost of 
evolution-2 








比较 


Comparison 








进化 “代价 ”3 
The cost of 
evolution-1 





“KAE” 


Function value 












图 6 系统 发 育 树 的 ”函数 值 ” 计算 过 程 


Fig. 6 Function value calculation process of phylogenetic tree 









系统 发 育 树 -1 






系统 发 育 树 -2 


系统 发 育 树 的 解 空间 
Solution space of 
phylogenetic trees 








系统 发 育 树 -i 


Phylogenetic tree-24 Calculate 


Calculate 


Phylogenetic tree-2 


Calculate 


Phylogenetic tree-i 


Calculate 






“函数 值 " -1 


Function value-1 









“函数 值 -2 


Function value-2 

















"Bir -i 


Function value-1 












最 大 简约 树 
The most 
parsimonious tree 










图 7 获得 最 大 简约 树 的 计算 流程 


Fig. 7 Calculation procedure of obtaining the most parsimonious tree 


的 最 大 简约 树 进行 评估 , 来 证 明 最 大 简约 树 的 正确 
性 以 及 精确 度 (Felsenstein，1985 ) 。 具 体 做 法 是 : 
对 原 有 DNA “和 矩阵 ”进行 随机 地 、 可 重复 地 抽样 
(Stamatakis et al., 2008) , FB RTH“ A)” SR“ E 
阵 ” 相 同 的 抽样 输入 信息 (图 8), 重复 计算 ,获得 


新 的 最 大 简约 树 , 如 此 往复 成 二 上 万 次 , 得 到 大 量 
的 抽样 最 大 简约 树 ,进而 与 最 开始 的 最 大 简约 树 比 
A, 获得 文 持 率 ( Bhattacharya, 1996) ,使 其 具有 统 
计 学 意义 上 的 文 持 (Alfaro et al., 2003) ， 以 证 明 其 
正确 性 与 精确 度 。 
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DNAFP FIFE Er Chi A.) 重 采 样 分 析 重 采 样 10 000 次 
DNA sequence matrix (input) Bootstrap Resampling 10 000 





















位 点 M 信 息 
Information 
of site M 


位 点 3 信息 
Information 
of site 3 


位 点 1 信息 
Information 
of site 1 


位 点 2 信息 
Information 
of site 2 


获得 “初始 树 ” 
( 逐步 添加 法 、 星 状 分 解法 ) 
Obtain the initial tree 
(stepwise addition algorithm , 
star decomposition algorithm) 











计算 树 的 

“最 大 简约 值 ” 
Calculate the trees' 
parsimony score 












Repeat the 


calculation 


修正 “起 始 树 ” 
(NNI, SPR, TBR) 
process of the 


Correct the initial tree left side 


(NNI, SPR, TBR) 

















位 点 3 
«€ MP 树 1 
MP tree 
of site 3 


位 点 1 
«€ MP 树 1 

MP tree 
of site 1 


位 点 2 
“MP 树 ” 
MP tree 
of site 2 








10 000 棵 重 采 样 MP 树 
10 000 resampling 
MP trees 


获得 最 优 MP 树 


统计 分 析 


Statistical 


Obtain optimal MP tree analysis 





最 终 输出 MP 树 ( 带 支持 率 ) 


The final output of the MP tree 
(with the confidence rate) 





图 9 基于 最 大 简约 原则 的 分 子 系统 发 育 重 建 计算 流程 图 


Fig.9 The calculation flowchart of molecular phylogenetic reconstruction based on the principle of maximum parsimony 


“ 7 其 2 n 

^^^. t Drapas JV HO mande of tees to 
图 10 Phylip 软件 包 基 于 最 大 简约 法 的 使 用 流程 save ”表示 在 计算 结果 中 保留 等 价 系 统 发 育 树 的 个 
Fig.10 The using process of Phylip packages based By, save 值 越 大 ,表明 程序 搜索 解 集 的 范围 越 大 ， 

on maximum parsimony 所 得 结果 越 可 信 ， 所 需 计算 时 间 越 长 。 在 通过 对 不 

同 save 值 的 测试 中 ( 表 2), 发 现 计算 时 间 的 增长 比 

耗 时 可 以 忽略 不 计 。 因 此 ,本 文 在 后 续 分 析 中 , 仅 A, [E] save 值 的 增长 比例 在 同一 个 数量 级 上 , HE 
考虑 Dnapars 时 间 部 分 , 以 便于 研究 比较 。 本 相等 。 因 此 ,为 了 获得 更 为 精确 的 分 析 结 果 , 提 
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表 1 Seqboot/Dnapars/Consense 分 析 过 程 的 耗 时 (s) 
Table 1 Time-consuming (s) of Seqboot/Dnapars/ Consense 


Seqboot 
( 重 采样 100 次 ) 
(replicates = 100 ) 


Dnapars 
数据 大 小 

Species-Sites 
( no replicates ) 


(无 重 采 样 分 析 ) 


Dnapars 与 Consense 
分 析 过 程 的 时 间 比 


Dnapars: Consense 


Dnapars 与 Seqboot 
分 析 过 程 的 时 间 比 
Dnapars: Seqboot 


Consense 


(无 重 采 样 分 析 ) 


( no replicates ) 


56 -24 0.00 0.02 0.00 - - 
56 — 249 0.04 0.39 0.00 9.75 - 
56 —540 0.08 2.35 0.00 29. 38 - 
56 -1 197 0.20 3.26 0.00 16.30 - 
357 -24 0.02 14.01 0.02 700. 50 700. 50 
357 —249 0.28 35.94 0.02 128.36 1 797.00 
357 —540 0.61 106. 71 0.01 174. 93 10 671.00 
357 -1 197 1.70 389. 42 0.02 229.07 19 471.00 
962 -24 0.08 899. 09 0.23 11 238. 63 3 909.09 
962 — 249 0.78 1 087.31 0.28 ] 393.99 3 883.25 
962 —540 1.61 2 425.46 0.37 1 506.50 6 555.30 
962 -1 197 4.81 6 531.91 0.35 ] 357.99 18 662. 60 


R2 Dnapars 计算 耗 时 (s) B8 save 值 的 增长 一 一 成 倍增 长 


Table 2  Time-consuming (s) of Dnapars increases with the growth of the save value exponentially 


Save 4 100 与 10 时， Save 41000 4 100 HY, Save 4j 1 000 5 10 时 ， 


assis o Suecló eec e1000 DP KOBRIBI, Duas HUMERIS | Dap HIS 
Save 100: 10 Save 1 000: 100 Save 1 000: 10 

56 -24 0.02 0.02 0.02 1.00 1.00 1.00 

56 -249 0.39 3.44 32.38 8. 82 9.41 83.03 

56 —540 2.35 18. 20 147.41 7.74 8. 10 62.73 

56 -1197 3.26 25.37 234. 43 7.78 9.24 71.91 

357 -24 14. 01 74. 13 697.87 5.29 9.41 49.81 

357 —249 35.94 365.19 2 741.86 10. 16 7.51 76.29 
357 —540 106. 71 1 008. 64 18 553.95 9.45 18. 40 173. 87 
357 -1 197 389. 42 2 902.94 33 843. 48 7.45 11.66 86.91 

962 -24 899. 09 4 867.84 64 365.70 5.41 13. 22 71.59 
962 — 249 1 087.31 6 820. 49 70 058. 93 6.27 10. 27 64. 43 
962 —540 2 425.46 27 653.34 30 0038. 74 11.40 10. 85 123. 70 
962 -1 197 6 531.91 31 154.97 38 9 748.67 4. T] 12. 51 59. 67 


高 m 倍 的 save fH, 将 带 来 近 m 倍 的 时 间 成 本 的 
增长 。 
4.5 重 采 样 分 析 的 耗 时 

重 采 样 分 析 过 程 相当 于 将 一 次 Dnapars 分 析 重 
BUT MA ET, 尽管 输入 数据 经 过 重新 抽样 已 
经 不 同 于 原始 输入 数据 , 但 是 数据 大 小 并 没有 改 
45. 因此 重 采 样 过 程 的 计算 时 间 将 会 在 原 数据 基础 


上 成 倍 线性 增长 , 耗 时 巨大 。 本 文 对 不 同 大 小 的 数 
据 分 别 在 replicates = 1, 10, 50 和 100 的 情况 下 计 
算 (replicates =1 表示 只 进行 原始 数据 的 Dnapars 分 
Dt, 不 进行 重 采 样 数据 的 Dnapars 分 析 ) ， 从 耗 时 数 
据 ( 表 3) 来 看 , 容易 发 现 : (1) replicates =1 Bf, f£ 
在 较 大 的 偶然 性 偏差 ( 由 程序 本 映 算法 结构 造成 ) , 
尽管 耗 时 随 着 数据 增 大 而 增 大 , 但 计算 时 间 随 着 
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replicates 增长 时 ,并 没有 呈 线 性 正比 例 关 系 增长 ; 


(2) 在 replicates = 10, 50 和 100 的 实验 结果 比较 
F, 能够 发 现 耗 时 的 增长 比例 ,基本 等 于 replicates 


的 增长 比例 。 这 主要 是 因为 随 着 replicates 的 增长 ， 


多 组 数据 的 重复 实验 ,消除 了 replicates 2 1 情况 下 
单 组 数据 的 计算 偶然 性 因素 , 真实 地 、 平均 地 反映 
了 程序 计算 量 的 大 小 。 


X3 Replicates =1, 10, 50 和 100 时 的 Dnapars 耗 时 (s) 
Table3 Time-consuming (s) of Dnapars while replicates equals to 1, 10, 50 and 100 


56 -24 56 -249 


重 采样 分 析 1 次 
Replicates = 1 
重 采样 分 析 10 次 
Replicates = 10 


重 采样 分 析 50 次 
Replicates = 50 


重 采样 分 析 100 次 
Replicates = 100 


重 采样 分 析 10 次 
5j 1 次 的 耗 时 比 
Replicates 10: 1 
重 采样 分 析 50 次 
5j 1 次 的 耗 时 比 
Replicate 50: 1 
重 采样 分 析 100 次 
与 1 次 的 耗 时 比 
Replicate 100: 1 
重 采样 分 析 50 次 
与 10 次 的 耗 时 比 4. 96 5.21 4.79 

Replicate 50: 10 


重 采样 分 析 100 次 

与 10 次 的 耗 时 比 10.21 10. 52 9. 63 
Replicate 100: 10 

重 采样 分 析 100 次 

与 50 次 的 耗 时 比 2.06 2.02 2.01 
Replicate 100: 50 


0.02 0.39 2.35 


16. 66 56.95 194. 42 


82. 62 296. 60 932.09 


170. 17 599. 02 


833. 00 146. 03 82. 73 


4 131.00 760.51 396. 63 


8 508.50 1 535.95 796. 30 


4.6 并行 化 重 采样 过 程 

3.6 市 中 总 结 的 算法 结构 显示 , 重 采 样 分 析 中 
各 个 DNA“ 和 矩阵 ”作为 输入 信息 , 在 计算 过 程 里 是 
相互 独立 的 , 互 不 影响 ; 4.5 市 的 计算 效率 分 析 同 
样 表明 replicates 越 小 ，Dnapars 的 计算 时 间 成 本 
越 低 。 据 此 , 针对 重 采样 分 析 过 程 ,作者 设计 了 并 
行 化 计算 结构 , 将 大 量 重复 的 Dnapars 计算 分 布 在 
不 同 的 计算 核心 上 并 行 执行 。 本 文 对 不 同 大 小 的 真 


56 —540 


1 871.30 


数据 大 小 Species-Sites 
56 -1 197 357 -24 357 -249 357 -540 357-1 197 
3.26 14. 01 35.94 106. 71 389. 42 
292.60 7 062. 62 11 604.70 26121.23 40 873.46 
1 360. 73 34 900.50 57026.15  Á 110 559.02 242 711.08 
2 716. 93 67091.81  113221.90 205 704.82 425 106.68 
89.75 504. 11 322. 89 244. 79 104. 96 
417.40 2 491.11 1 586.70 1 036.07 623.26 
833.41 4 788.85 3 150.30 1 927.70 1 091.64 
4.65 4.94 4.91 4.23 5.94 
9.29 9.50 9.76 7.88 10. 40 
2.00 1.92 1.99 1.86 1.75 


实数 据 , 分 别 在 单 核 上 串 行 计算 ,双核 和 四 核 上 并 
行 计算 , 其 结 采 ( 表 4) 表 明 : (1) 在 并 行 环境 下 , 基 
于 最 大 简约 法 的 系统 发 育 重 建 效率 得 到 了 大 大 提 
升 ; (2) 双核 并 行将 计算 时 间 缩 得到 单 核 串 行 时 间 
的 近 二 分 之 一 ， 四 核 并 行 缩短 到 近 四 分 之 一 ; (3) 
在 便 件 服务 此 配置 完全 满足 的 情况 下 ,并 行 计算 重 
采样 过 程 , 能够 有 效 提高 分 析 效 率 ,帮助 生物 学 家 
更 好 地 进行 分 析 研 究 。 
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数据 大 小 


Species-Sites 
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并 行 执行 重 采 样 分 析 的 时 间 消 耗 


Table 4 Time-consuming of bootstrap process using parallel computing 


HAR ERAT 


Serial 1-core 


耗 时 Time-consuming (s) 


双核 并 行 


Parallel 2-core 


四 核 并 行 


Parallel 4-core 


56 -24 170. 17 86. 00 43. 35 
56 -249 599. 02 297.23 148. 40 
56 —540 1 871.30 937.62 474.75 
56 -1 197 2 116.93 1 372.35 674. 44 
357 -24 67 091.81 34 936. 54 16 723.05 
357 -249 113 221. 90 57 129.17 27 982.24 
357 —540 205 704. 82 111 138.64 58 146. 46 
357 -1 197 425 106. 68 250 152.30 128 748. 97 


四 核 并 行 : 双核 并 行 


4-core:2-core 
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耗 时 比 Ratio of time-consuming 


双核 并 行 : 单 核 串 行 


2-core: 1 -core 


四 核 并 行 : 单 核 串 行 


4-core: 1-core 


0.51 0.50 0. 25 
0. 50 0.50 0. 25 
0. 50 0.51 0. 25 
0.51 0. 49 0. 25 
0. 52 0.48 0. 25 
0. 50 0. 49 0. 25 
0. 54 0.52 0.28 
0.59 0.51 0.30 


5 ”讨论 与 展望 


随 春 基因 组 时 代 的 到 来 , 针对 最 大 简约 法 的 现 
有 计算 软件 已 经 无 法 满足 生物 学 家 的 研究 需求 ,一 
方面 , 分 析 的 生物 类 群 中 所 售 的 个 体 数 越 来 越 多 ; 
男 一 方面 , 每 个 个 体 的 分 子 信息 含量 不 断 增长 ,这 
些 无 疑 将 市 来 巨大 的 计算 量 。 因 此 , 针对 最 大 简约 
法 在 实际 使 用 中 的 改进 与 优化 , 将 变 得 任 重 而 道 
远 。 单 纯 地 依靠 计算 服务 郁 并 行 化 bootstrap 过 程 ， 
MPRA AKER BCS, 是 治标 不 治本 的 。 在 计 
算 效 率 提升 方面 , 作者 认为 至 少 还 有 以 下 几 点 可 以 
考虑 : (1) 最 大 简约 值 的 计算 过 程 的 并 行 化 设计 ; 
(2)“ 树 空间 ”的 搜索 方法 (局 发 式 搜索 ) 的 智能 化 
改进 ; (3) 基 于 类 似 蚁 群 算法 、 遗 传 算法 改进 司 发 
式 搜索 过 程 后 的 并 行 化 改进 。 

当然 , 这 些 仅 仅 是 针对 最 大 简约 法 改进 的 一 个 
开始 , 作者 在 此 和 希望 通过 系统 地 、 概 括 地 前 析 最 大 
简约 算法 , 能 够 为 有 志 于 此 的 计算 机 工作 者 提供 些 
许 帮 助 , 以 不 断 推 动 最 大 简约 法 的 计算 优化 与 改 
dt, 进一步 满足 生物 学 工作 者 的 计算 需求 。 
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